亚马逊客户服务每年为数百万客户联系提供实时支持。尽管Bot-Resolver有助于自动化一些流量,但我们仍然看到对人类代理商的需求很高,也称为主题专家(SME)。客户在不同域中的问题(返回策略,设备故障排除等)进行宣传。根据他们的培训,并非所有中小型企业都有资格处理所有联系人。与合格的中小型企业的路由联系是一个非平凡的问题,因为中小企业的域名资格受训练质量的影响,并且可以随着时间的推移而改变。为了在同时学习真正的资格状态的同时,我们建议使用非参数上下文的强盗算法(K-Boot)以及资格控制(EC)算法来制定路由问题。 K-Boot模型以$ K $ -NN选择的类似样品和Bootstrap Thompson采样进行探索,并以类似的样本进行奖励。 EC通过最初符合系统的资格过滤武器(SME),并动态验证该信息的可靠性。提出的K-boot是一种通用匪徒算法,EC适用于其他土匪。我们的仿真研究表明,K-boot在最新的匪徒模型上进行性能,并且当存在随机弹性信号时,EC会提高K-Boot性能。
translated by 谷歌翻译
人类身份是对日常生活中许多应用的关键要求,例如个性化服务,自动监视,连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别(REID)的问题,对跨摄像机允许区域(例如街道)和摄像头限制区域(例如办公室)的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达,我们提出了同时跨模式多人REID的首个视觉RF系统。首先,为了解决基本模式间差异,我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次,引入了有效的跨模式深度度量学习模型,以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验,我们证明了我们所提出的系统能够达到约92.5%的TOP-1准确性,而在56名志愿者中,〜97.5%的前5位精度。我们还表明,即使传感器的视野中存在多个主题,我们提出的系统也能够重新识别受试者。
translated by 谷歌翻译
对象本地化一直是计算机视觉字段中的至关重要任务。已经根据参加像素的特征提出了在图像中定位对象的方法。最近,研究人员提出了将对象定位作为动态决策过程的方法,可以通过强化学习方法来解决。在这个项目中,我们基于深入的强化学习实现了一种新颖的活动对象本地化算法。我们比较了此MDP的两个不同的动作设置:一种分层方法和动态方法。我们通过研究不同的超参数和各种体系结构的变化,进一步对模型的性能进行一些消融研究。
translated by 谷歌翻译
最近,已经开发了各种视觉变压器作为对远程依赖性建模的能力。在当前的基于变压器的主骨用于医疗图像分割的骨架中,卷积层被纯变压器替换,或者将变压器添加到最深的编码器中以学习全球环境。但是,从规模的角度来看,主要有两个挑战:(1)尺度内问题:在每个尺度中提取局部全球线索所缺乏的现有方法,这可能会影响小物体的信号传播; (2)尺度间问题:现有方法未能从多个量表中探索独特的信息,这可能会阻碍表示尺寸,形状和位置广泛的对象的表示形式学习。为了解决这些局限性,我们提出了一个新颖的骨干,即比例尺形式,具有两个吸引人的设计:(1)尺度上的尺度内变压器旨在将基于CNN的本地功能与每个尺度中的基于变压器的全球线索相结合,在行和列的全局依赖项上可以通过轻巧的双轴MSA提取。 (2)一种简单有效的空间感知尺度变压器旨在以多个尺度之间的共识区域相互作用,该区域可以突出跨尺度依赖性并解决复杂量表的变化。对不同基准测试的实验结果表明,我们的尺度形式的表现优于当前最新方法。该代码可公开可用:https://github.com/zjugivelab/scaleformer。
translated by 谷歌翻译
我们提出了一种新的基于网格的学习方法(N-Cloth),适用于合理的3D布变形预测。我们的方法是通用的,可以处理具有任意拓扑的三角网格表示的布料或障碍物。我们使用Graph卷积将布料和对象网格转换为潜在空间以减少网格空间中的非线性。我们的网络可以基于初始布网格模板和目标障碍物网的状态来预测目标3D布网格变形。我们的方法可以处理复杂的布料网格,最高可达100美元的k三角形和场景,具有与SMPL人,非SMPL人或刚体相对应的各种对象。在实践中,我们的方法展示了连续输入框架之间的良好时间相干性,并且可用于在NVIDIA GeForce RTX 3090 GPU上以30-45美元的$ 30-45 $ FPS产生合理的布料模拟。我们突出了以前基于学习的方法和基于物理的布料模拟器的好处。
translated by 谷歌翻译
3D可线模型(3DMMS)是面部形状和外观的生成模型。然而,传统3DMMS的形状参数满足多变量高斯分布,而嵌入式嵌入满足过边距分布,并且这种冲突使得面部重建模型同时保持忠诚度和形状一致性的挑战。为了解决这个问题,我们提出了一种用于单眼脸部重建的新型3DMM的球体面部模型(SFM),这可以保持既有忠诚度和身份一致性。我们的SFM的核心是可以用于重建3D面形状的基矩阵,并且通过采用在第一和第二阶段中使用3D和2D训练数据的两级训练方法来学习基本矩阵。为了解决分发不匹配,我们设计一种新的损失,使形状参数具有超球的潜在空间。广泛的实验表明,SFM具有高表示能力和形状参数空间的聚类性能。此外,它产生富翼面形状,并且形状在单眼性重建中的挑战条件下是一致的。
translated by 谷歌翻译
虽然U-Net在医学图像分割任务中取得了巨大的成功,但它缺乏明确模拟远程依赖性的能力。因此,视觉变压器最近被出现为替代分割结构,以便通过自我关注捕获远程相关性的先天能力(SA)。然而,变压器通常依赖于大规模的预训练并具有高的计算复杂性。此外,SA只能在单个样本内模拟自我亲和力,忽略整个数据集的潜在相关性。为了解决这些问题,我们提出了一种名为混合变压器模块(MTM)的新型变压器模块,用于同时和内部内部学习。 MTM首先通过我们设计精心设计的本地全球高斯加权自我关注(LGG-SA),有效地计算自我亲创。然后,它通过外部注意力(EA)挖掘数据样本之间的连接。通过使用MTM,我们构造一个名为混合变压器U-NET(MT-UNET)的U形模型,以进行准确的医学图像分割。我们在两个不同的公共数据集上测试我们的方法,实验结果表明,该方法达到了更好的性能,对其他最先进的方法进行了更好的性能。代码可在:https://github.com/dootmaan/mt-unet。
translated by 谷歌翻译
许多最近的作品通过基于参数模型聚集了相同的身份的形状参数并将不同人的形状参数聚集在一起(例如,3D可变模型(3DMMS))来重建独特的3D面形状。然而,尽管使用这些形状参数的面部识别任务中的高精度,但是从那些参数重建的面部形状的视觉辨别是不令人满意的。以下研究尚未回答以下研究问题:做差异的形状参数保证所代表的3D面形状的视觉歧视吗?本文分析了形状参数与重建形状几何之间的关系,提出了一种新颖的形状相同感知正则化(SIR)损耗的形状参数,旨在增加形状参数和形状几何域中的辨别性。此外,为了应对包含地标和身份注释的缺乏培训数据,我们提出了一种网络结构和相关的培训策略,以利用包含身份或地标标签的混合数据。我们将我们的方法与现有方法进行比较重建误差,视觉区分性和形状参数的面部识别准确性。实验结果表明,我们的方法优于最先进的方法。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译